TF-IDF (Term Frequency-Inverse Document Frequency) এবং Bag of Words (BoW) হলো দুটি জনপ্রিয় টেক্সট প্রক্রিয়াকরণ পদ্ধতি, যা Natural Language Processing (NLP) এবং Text Mining-এ ব্যবহৃত হয়। এগুলি টেক্সট ডেটাকে সংখ্যার আকারে রূপান্তর করতে ব্যবহৃত হয়, যাতে মেশিন লার্নিং অ্যালগরিদমগুলি সেই ডেটা ব্যবহার করতে পারে।
1. Bag of Words (BoW) মডেল
Bag of Words একটি সহজ এবং বেসিক টেক্সট প্রক্রিয়াকরণ পদ্ধতি যা টেক্সট ডেটাকে একটি শব্দের ভেক্টর হিসেবে রূপান্তরিত করে। এই মডেলটি একটি ডকুমেন্টের মধ্যে উপস্থিত শব্দগুলির উপস্থিতি এবং তাদের গননা (frequency) ব্যবহার করে একটি ভেক্টর তৈরি করে।
BoW মডেলের বৈশিষ্ট্য:
- শব্দের অর্ডার গুরুত্বপূর্ণ নয়: শব্দের অর্ডার বা সিকোয়েন্স এখানে গোনা হয় না। শুধু শব্দের উপস্থিতি বা তাদের সংখ্যা গোনা হয়।
- শব্দের উপস্থিতি: প্রত্যেকটি শব্দকে একটি ফিচার হিসেবে গণ্য করা হয় এবং এই শব্দগুলির উপস্থিতি ও সংখ্যা ভেক্টর ফিচার হিসেবে রূপান্তরিত করা হয়।
ফর্মুলা:
ধরা যাক, আমাদের দুটি ডকুমেন্ট:
- "I love programming"
- "Programming is fun"
এখন, সমস্ত ডকুমেন্টের জন্য একটি শব্দভাণ্ডার তৈরি করা হবে:
- শব্দভাণ্ডার: ["I", "love", "programming", "is", "fun"]
এখন প্রতিটি ডকুমেন্টের জন্য একটি ভেক্টর তৈরি করা হবে, যেখানে প্রতিটি শব্দের উপস্থিতি গোনা হবে:
- ডকুমেন্ট 1: [1, 1, 1, 0, 0] (I, love, programming, is, fun)
- ডকুমেন্ট 2: [0, 0, 1, 1, 1] (I, love, programming, is, fun)
ব্যবহার:
- BoW মডেল সাধারণত টেক্সট ক্লাসিফিকেশন এবং টেক্সট সিমিলারিটি বিশ্লেষণে ব্যবহৃত হয়।
- এটি সাধারণত টেক্সট ক্লাসিফিকেশন সমস্যা (যেমন স্প্যাম ইমেইল শনাক্তকরণ) এবং অন্যান্য NLP কাজ (যেমন শব্দ বিশ্লেষণ, সেন্টিমেন্ট অ্যানালাইসিস) তে ব্যবহৃত হয়।
সীমাবদ্ধতা:
- শব্দের অর্ডার গুরুত্বহীন, তাই ভাষার প্রাকৃতিক গঠন (syntax) বা অর্থ (semantic) মডেলটি বিবেচনায় নেয় না।
- এটি বিশাল ভেক্টর তৈরি করতে পারে, বিশেষ করে যদি ডেটাসেটে অনেক বড় শব্দভাণ্ডার থাকে।
2. TF-IDF (Term Frequency-Inverse Document Frequency)
TF-IDF হলো একটি উন্নত মেট্রিক যা Term Frequency (TF) এবং Inverse Document Frequency (IDF) এর সংমিশ্রণ। এটি শব্দের গুরুত্ব পরিমাপ করে, যাতে সাধারণ শব্দগুলির তুলনায় গুরুত্বপূর্ণ শব্দগুলির উপর বেশি গুরুত্ব দেওয়া হয়।
TF-IDF এর দুটি মূল অংশ:
Term Frequency (TF): এটি একটি নির্দিষ্ট শব্দের ডকুমেন্টে উপস্থিতির গননা (frequency) হিসাব করে। সাধারণত, শব্দের প্রাসঙ্গিকতা যতো বেশি, তার TF ততো বেশি হবে।
ফর্মুলা:
Inverse Document Frequency (IDF): এটি একটি শব্দের গুরুত্ব পরিমাপ করে ডকুমেন্টের মধ্যে সেই শব্দের বিরলতা পরিমাপ করে। একটি শব্দ যদি ডকুমেন্টের মধ্যে বেশিরভাগ সময় উপস্থিত থাকে, তবে তার IDF কম হবে, কারণ এটি সাধারণ শব্দ।
ফর্মুলা:
TF-IDF: TF এবং IDF এর গুনফল হলো TF-IDF, যা শব্দের গুরুত্ব বা প্রাসঙ্গিকতা পরিমাপ করে।
ফর্মুলা:
ব্যবহার:
- TF-IDF বেশি ব্যবহৃত হয় টেক্সট মাইনিং এবং ডকুমেন্ট ক্লাসিফিকেশন এ, যেখানে শুধুমাত্র গুরুত্বপূর্ণ শব্দগুলিকে গুরুত্ব দেয়া হয়।
- এটি অনলাইন সার্চ ইঞ্জিন এবং রেকমেন্ডেশন সিস্টেম গুলিতে ব্যবহৃত হয়, যাতে বিভিন্ন শব্দের মধ্যে প্রাসঙ্গিকতা নির্ধারণ করা যায়।
উদাহরণ:
ধরা যাক, দুটি ডকুমেন্ট:
- "I love programming"
- "Programming is fun"
এখন, "programming" শব্দের TF-IDF বের করার জন্য:
- TF(programming) = 1 (কারণ এটি প্রতি ডকুমেন্টে একবারই এসেছে)
- IDF(programming) = (যেহেতু এটি দুইটি ডকুমেন্টেই উপস্থিত)
তাহলে, TF-IDF(programming) = 1 × 0 = 0।
BoW এবং TF-IDF এর মধ্যে পার্থক্য
| বৈশিষ্ট্য | Bag of Words (BoW) | TF-IDF |
|---|---|---|
| শব্দের গুরুত্ব | সব শব্দকে সমান গুরুত্ব দেয়। | সাধারণ শব্দগুলির তুলনায় বিরল বা গুরুত্বপূর্ণ শব্দকে বেশি গুরুত্ব দেয়। |
| কম্পিউটেশনাল খরচ | সাধারণ এবং কম্পিউটেশনে সহজ। | একটু বেশি কম্পিউটেশনাল খরচ হতে পারে কারণ TF এবং IDF হিসাব করতে হয়। |
| পাঠ্য এর বৈশিষ্ট্য | শুধুমাত্র শব্দের উপস্থিতি গোনে, অর্ডার বা সংজ্ঞা বিবেচনায় নেয় না। | শব্দের গুরুত্বকে যাচাই করে, যা টেক্সটের মূল উপাদান বা অর্থ বোঝার জন্য সহায়ক। |
সারাংশ
- Bag of Words (BoW) একটি সহজ পদ্ধতি যা ডকুমেন্টের শব্দগুলির উপস্থিতি এবং গননা নির্ধারণ করে, তবে শব্দের অর্ডার বা অর্থের মধ্যে কোনো পার্থক্য ধরা হয় না।
- TF-IDF একটি উন্নত পদ্ধতি যা শব্দের গুরুত্বকে পরিমাপ করে, যেটি টেক্সটের প্রাসঙ্গিকতা বা মুল বিষয়গুলো চিহ্নিত করতে সাহায্য করে। TF-IDF সাধারণত BoW এর চেয়ে বেশি কার্যকর যখন ডেটাতে সাধারণ বা কম গুরুত্বপূর্ণ শব্দ থাকতে পারে।
TF-IDF মডেল সাধারণত টেক্সট ক্লাসিফিকেশন, ইনফর্মেশন রিট্রিভাল, এবং ডকুমেন্ট সিমিলারিটি বিশ্লেষণে ব্যবহৃত হয়।
Read more